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【 目的 】 从 大 规模 食品 安全 事件 当中 抽取 食品 安全 事件 实体 。[ 方法 】 基 于 已 发 生 的 食品 安全 事件 , 结合 


情报 学 数据 获取 、 标 注 和 组 织 的 方法 ,融合 食品 安全 事件 实体 的 多 种 分 布 特征 知识 , 通过 条 件 随机 场 模 型 ,构建 
食品 安全 事件 语 料 并 从 中 抽取 相应 的 实体 。 局 限 ] 在 食品 安全 事件 实体 抽取 过 程 中 所 制定 的 特征 模板 在 领域 化 
迁移 上 具有 一 定 的 局 限 性 。[ 结果 ] 在 已 有 1 500 万 字 经 过 标注 的 食品 安全 事件 语 料 的 规模 上 , 通过 统计 食品 安 
全 事件 实体 的 内 部 和 外 部 特征 ,基于 条 件 随机 场 机 器 学 习 模型 ,构建 了 食品 安全 实体 的 抽取 模型 ， 该 模型 最 高 
的 F 值 达 到 91.94%。[ 结论 ] 通过 对 食品 安全 事件 实体 抽取 结果 的 分 析 , 在 食品 这 一 领域 化 的 语 料 上 ,基于 条 件 


随机 场 进行 实体 抽取 是 可 行 的 。 
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为 了 应 对 备 受 关注 的 “双汇 瘦 肉 精 ”"、“ 老 酸奶 ”、 
“酒鬼 酒 塑 化 剂 超标 ”、“ 致 癌 金 针 菇 ”、“ 美 素 丽 儿 奶 
粉 " “硫磺 村 制 枸杞 ”*“ 锅 大 米 ” 等 食品 安全 事件 问题 ， 
2013 年 12 月 23 日 至 24 日 的 中 央 农 村 经 济 工作 会 议 
明确 提出 “尽快 建立 全 国 统一 的 农产品 和 食品 安全 信 
息 追 溯 平 台 ” 的 具体 措施 ,而 构建 食品 安全 信息 追溯 
平台 的 基础 是 要 对 食品 安全 事件 中 的 主要 实体 进行 确 
认 , 尤其 是 涉及 到 食品 安全 与 情 的 处 理 时 ， 相 关 实 体 
的 抽取 变 得 愈 发 重要 。 针 对 这 一 情况 , 本 文 基 于 构建 
的 食品 安全 事件 语料库 ， 结合 条 件 随 机 场 机 器 学 习 模 
型 ， 通 过 利用 食品 安全 事件 实体 的 多 特征 知识 , 对 食 
品 安全 事件 的 实体 进行 抽取 实验 。 一 方面 为 构建 食品 
安全 事件 知识 库 提 供 了 基本 的 知识 销 点 ， 另 一 方面 也 


了 中 


为 深入 挖 据 、 分 析 和 总 结 应 对 食品 安全 事件 的 策略 葛 
定 了 基础 。 

有 关 食 品 安全 事件 的 研究 主要 集中 在 案例 政策 和 
应 急 处 理 上 , 有 代表 性 的 研究 主要 有 : 由 复旦 大 学 的 研 
究 生 吴 恒 联合 34 名 网 络 志愿 者 创建 “ 掷 出 窗外 ”网 站 串 ， 
搜集 了 关于 食品 安全 事件 的 相关 事件 并 构建 了 数据 库 。 
该 数据 库 为 本 文 构建 的 食品 安全 事件 语料库 提供 了 一 
定数 量 的 文本 , 是 本 文 语 料 库 构 建 的 基础 。 
关于 食品 安全 事件 的 研究 更 多 是 从 管理 学 的 角度 
行 ， 比 较 有 代表 性 的 研究 有 : 张 莫 洁 等 外 基于 两 个 
型 案例 , 分 析 了 应 急 管理 事件 时 信息 不 公开 造成 的 
危害 , 并 探讨 了 常见 的 不 公开 的 原因 。 该 研究 选取 典 
型 案例 的 方法 为 本 文 确定 语 料 文本 提供 了 方法 上 的 借 
鉴 。 马 颖 等 站 构建 了 食品 行业 事件 风险 感知 的 传染 病 
模型 ， 并 以 日 本 地 震 衍 生 的 “抢购 食盐 事件 ”为 例 ， 对 


进 
时 
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面向 应 急 推 演 平 台 的 海量 突 发 事件 知识 库 与 模型 库 构 建 研究 (编号 : JD20150101)、 国 家 
s 于 CSSCI 的 句法 级 汉 英 平行 语料库 构建 及 知识 挖掘 研究 ”( 项 目 编号 : 71303120) 和 地 震 科技 星火 计划 项 目 “ 面 向 
地 震 应 急 的 空间 智能 决策 方法 研究 ”( 项 目 编号 : HX15019) 的 研究 成 呈 


之 一。 


模型 进行 数值 分 析 和 检验 。 该 研究 为 本 文 进 行 食品 安 
全 事件 的 名 称 标注 提供 了 相应 的 借鉴 之 处 。 

上 述 人 研究 一 方面 为 本 文 提 供 了 宏观 的 方法 、 策 上 略 
此 导 ， 另 一 方面 也 为 本 文 确定 食品 安全 事件 的 实体 提 
供 了 具体 的 依据 。 

实体 的 抽取 方面 最 新 的 研究 主要 是 通过 机 器 学 习 
的 方法 抽取 非 结 构 化 文本 中 的 实体 ， 比 较 有 代表 性 的 
研究 如 下 : 基于 神经 网 络 的 策略 ， 陈 宇 等 外 尝试 利用 
Deep Belief Nets 模型 对 实体 及 实体 之 间 的 关系 进行 抽 
取 。 该 研究 为 本 文 确定 特征 量 的 数量 提供 了 相应 的 方 
法 指导 。 利 用 相应 的 语义 知识 对 实体 进行 抽取 也 是 目 
前 较为 流行 的 策略 ， 邵 发 等 中 从 解决 一 词 多 义 的 问题 
着 手 , 利用 卜 义 消除 策略 , 通过 HowNet 和 贝 叶 斯 分 
类 的 资源 与 方法 ,对 实体 进行 抽取 。 从 消除 卜 义 的 角 
度 完成 对 实体 的 识别 虽然 具有 一 定 的 科学 性 , 但 这 种 
方法 在 大 规模 的 语 料 上 的 整体 性 能 有 待 验 证 。 针 对 急 
剧 增加 的 电子 医疗 文本 , 许 华 等 时 基于 分 词 .词性 标注 
的 医疗 语 料 , 利用 规则 的 方法 ,完成 对 医疗 文本 中 实 
体 的 抽取 , 整体 性 能 达到 80% 以 上 。 规 则 的 方法 虽然 
在 某 一 特征 的 语 料 上 具有 一 定 的 适应 性 , 但 由 于 对 蕴 
含 在 具体 语 料 词汇 之 间 的 规则 缺乏 充分 的 探究 , 在 一 
定 程度 上 会 导致 所 制定 规则 的 覆盖 度 相 对 较 差 。 这 也 
是 本 文选 取 条 件 随机 场 模型 进行 食品 安全 事件 实体 抽 
取 的 主要 原因 之 一 。 与 食品 安全 事件 相关 的 信息 抽取 
研究 中 ,目前 集中 在 针对 食品 投诉 文本 词汇 层级 的 知 
识 抽取 ,比较 有 代表 性 的 研究 是 魏 秀 卓 中 围绕 食品 投 
诉 文本 敏感 词汇 的 抽取 和 高 蕊 外 基于 本 体 的 食品 投诉 
文本 危害 信息 的 提取 。 相 对 于 实体 抽取 ,词汇 级 的 抽 
取 相 对 简单 ， 主 要 体现 在 词汇 的 长 度 较 短 和 内 部 组 成 
相对 简单 这 两 点 上 。 条 件 随机 场 作为 抽取 术语 和 实体 
等 序列 化 的 机 器 学 习 模 型 具有 较 广泛 的 应 用 ， 比 较 有 
代表 性 的 如 下 : 李 丽 双 等 外 通过 简单 特征 模板 完成 对 
汽车 术语 的 抽取 ; 在 词汇 组 合 的 特征 模板 基础 上 ， 王 
文 龙 等 5 完成 了 对 项 目 申报 书 中 实体 的 抽取 ; 结合 
医 词汇 的 特征 知识 , 刘 凯 等 上 构建 了 中 医 电子 病历 的 
实体 抽取 模型 。 上 述 基 于 条 件 随 机 场 的 术语 和 实体 抽 
取 仅 仅 利 用 了 实体 自身 简单 的 特征 知识 , 未 涉及 到 所 
抽取 对 象 上 下 文 语 境 的 信息 。 本 文 在 识别 食品 安全 事 
件 实体 的 过 程 中 构建 了 复杂 的 特征 模板 , 在 一 定 程度 
上 弥补 了 已 有 识别 方法 的 不 足 。 


总 第 3 期 2017 年 第 3 期 


2 食品 安全 事件 实体 界定 和 特征 统计 


2.1 食品 安全 事件 语 料 简介 及 实体 界定 

在 对 食品 安全 事件 进行 采集 、 标 注 和 组 织 的 基础 
上 ,本文 构建 了 2005 年 -2015 年 的 食品 安全 事件 语 料 
库 。 食 品 安全 事件 的 获取 目标 主要 包括 互联 网 上 的 食 
品 安全 事件 和 纸 质 媒介 上 的 食品 安全 事件 。 网 络 上 食 
品 安全 事件 的 采集 主要 通过 面向 事件 主题 垂直 搜索 引 
擎 技术 自动 采集 , 采集 范围 包括 新 闻 门 户 、 论 坛 和 博 
客 ， 对 于 采集 的 异 构 数据 通过 相应 的 数据 清洗 、 转 换 
统计 保存 到 数据 库 中 ， 而 纸 质 的 事件 案例 则 通过 人 工 


录入 、 校 对 的 方式 完成 对 事件 的 采集 。 具 体 食品 安全 
事件 文本 抓 取 的 程序 截图 如 图 1 所 示 。 


饮 contentrinder 
网 页 内 容 抽取 流程 


生成 网 址 列表 


址 模板 : kt | coneel 


可 接受 的 词典 文件 格式 为 : 1、 一 行 一 个 单词 ! 或 ?、 每 行 格式 如 : 
abandon -> abandons, abandonine, abandoned 


个 网 址 列表 一 个 文件 


图 1 食品 安全 事件 抓 取 软件 截图 


食品 安全 事件 的 标注 主要 是 完成 对 食品 安全 事件 
的 分 词 、 词 性 标注 ,针对 词汇 长 度 比较 大 的 食品 安全 
名 称 则 标注 大 一 级 的 词性 ,相对 通用 的 语 料 , 食品 安 
全 事件 中 的 词汇 长 度 较 长 , 在 进行 分 词 的 时 候 将 这 类 
词汇 视 为 一 个 词汇 来 处 理 并 进行 词性 标注 ; 食品 安全 
的 组 织 主 要 是 对 食品 安全 事件 进行 类 别 标注 , 具体 类 
别 标注 则 基于 《中华 人民 共 和 国 食品 安全 法 》 进 行 。 
经 过 上 述 处 理 , 所 构建 的 食品 安全 事件 语料库 达到 
1 500 万 字 级 和 687 万 词 级 , 由 2 800 个 食品 安全 事件 
组 成 。 

本 文 的 实体 主要 是 指 食品 安全 事件 中 涉及 的 食 
品名 称 与 导致 食品 安全 事件 发 生 的 具体 因素 ， 比 如 
具体 的 食品 名 称 有 有“ 奶粉、 酱油、 大米、 牛奶” 等 ,而 
具体 因素 则 为 “添加 剂 、 甲 醛 、 过 氧化 葵 甲 酰 、 反 式 
脂肪 酸 ” 等 。 本 文 的 主要 任务 是 构建 机 器 学 习 模型 ， 
自动 将 食品 名 称 与 导致 食品 安全 事件 发 生 的 具体 因 
素 抽 出 来 条件 随机 场 模型 训练 和 测试 所 使 用 的 语 料 
样 例如 下 所 示 。 


Data Analysis and Knowledge Discovery 


企业 /n 或 /c 个 人 /n 的 /u“/w 违法 /vn 行为 hn ”/w 中 下 ,人 /w 包 
括 /V“/w 生产 /v 假冒 /vn 注册 /vn 商标 /n 的 /u 新装/b 水 上 ww 
在 /p 生产 /vn 加 工 /vn 饺子 皮 /mn 、/wn 云 知 皮 /mn 过程 /n 中 /f 添加 
/V 有 毒 /Vi 有 害 /a 物质 /n【 硼砂 /n 】”/w “/w 在 /p 生产 /vn 加 工 /vn 
【 牛 百叶 /nr】 、/wn 【 玺 鱼 和 站】 、/wn 【和 牛 】 肚 /ng 等 /v 食品 /n 的 
全 过 程 /n 中 上 添加 /v 有 毒 /vi 有 害 /a 物质 /ln 【过 氧化 氮 /n】 和 /p 
所 【氧化 钠 /h 】”/w “/w 递交 /v 虚假 /a 材料 /n 取得 /v 餐饮 /n 服务 
/vn 许可 /vn ”ww “/w 自 改 /v 食品 /n 生产 /vn 日 期 /hn 并/d 销售 
/Vw 等 如 。/Wj 
2.2 ”实体 内 部 和 外 部 特征 统计 

选取 2 800 个 食品 安全 事件 , 通过 人 工 对 其 中 的 
食品 名 称 与 导致 食品 安全 事件 发 生 的 具体 因素 进行 手 
工 标 注 。 在 标注 的 语 料 基 础 上 , 统计 “食品 名 称 ” 与 “ 具 
体 因素 ”这 些 实体 的 内 部 和 外 部 特征 。 

(1) 内 部 特征 


可 = 

> 词语 长 度 

天 获取 实体 的 长 度 一 方面 有 利于 掌握 所 抽取 实体 对 象 的 
© 难 易 程 度 ， 另 一 方面 也 有 利于 确定 条 件 随机 场 标记 集 的 数 
ld 目 。 食 品 安全 事件 实体 长 度 分 布 如 表 1 所 示 。 

OO 表 1 食品 安全 事件 实体 长 度 分 布 表 

了 实体 长 度数 量 (个 ) 实体 长 度 数量 (个 ) 
| 2 48 036 13 13 

© 3 23 499 9 9 

[eo | 4 6 878 10 A 

Ne 1 6 594 12 5 

Ee— 

Se 5 1 383 14 2 

FN 

5 6 394 11 1 

CC 7 182 15 1 

a 8 37 20 1 


由 表 1 可 以 看 出 ,实体 的 长 度 主要 在 1-5 之 间 , 通过 计 
算得 出 长 度 为 1-5 的 实体 占 总 数 的 99.25%， 长度 为 2 和 3 的 
实体 占 总 数 的 82.18%， 长 度 为 2 的 实体 占 总 数 的 55.19%， 
长 度 为 3 的 实体 占 总 数 的 27.00%。 通 过 计算 结果 不 难 发 现 : 
长 度 为 2 的 实体 数量 超过 半数 ， 因 此 在 实体 抽取 方面 ,长度 
为 2 和 3 的 实体 是 重点 抽取 的 对 象 ， 例 如“ 奶粉"“ 牛 奶 ”“ 猪 
肉 ”“ 添 加 剂 ”"、“ 地 沟 油 ”等 。 而 那些 长 度 大 于 8 的 大 多 是 
含有 形容 词 的 名 词 或 是 一 些 复杂 的 专 有 名 词 ， 例 如 :“ 环 已 
基 氢 基础 酸 钠 ”。 

@) 具 体 实体 的 分 布 情况 

通过 统计 具体 实体 的 分 布 情况 不 仅 有 助 于 获得 感性 的 
有 关 实 体 的 有 具体 内 容 , 而 且 也 有 利于 统计 具体 实体 的 左右 
特征 知识 。 部 分 食品 安全 事件 实体 的 分 布 如 表 2 所 示 。 

表 2 只 选取 了 部 分 实体 数据 , 分 别 是 排名 前 10 以 及 实 
体 长 度 为 4-6 的 数量 靠 前 的 实体 数据 (该 数据 共有 3 193 项 ， 
87 042 个 )。 因 为 排名 前 10 中 大 部 分 为 长 度 为 2 的 实体 ,， 故 
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表 2 具体 食品 安全 事件 实体 的 分 布 情况 


实体 数量 (个 ) 实体 数量 (个 ) 
添加 剂 2 243 大 米 899 
奶粉 1 661 牛奶 810 
地 沟 油 1 178 药 袋 733 
效 油 1 078 菌落 总 数 377 
酒 1 006 亚 硝酸 盐 352 
猪肉 943 反 式 脂肪 酸 95 
甲醛 904 过 氧化 茶 甲 酰 90 


未 在 表格 中 再 添加 该 类 数据 ,该 项 统计 的 实体 总 量 为 87 042， 
其 中 前 10 项 占 总 数 的 13.16%, 前 5 项 占 总 数 的 8.23%， 第 
二 项 奶粉 占 1.91%， 第 一 项 添加 剂 占 2.58%。 

(2) 外 部 特征 

在 不 同 食品 安全 事件 的 语 料 中 ,“ 食 品名 称 ” 和 “ 具 
体 因 素 ” 的 左右 边界 存在 较 大 的 差异 , 分 别 对 食品 安 
全 事件 语 料 中 的 “食品 名 称 ” 和 “具体 因素 ”的 左右 边界 
进行 统计 , 该 统计 结果 对 于 后 续 构 建 “ 食 品名 称 ” 和 “ 具 
体 因素 ”抽取 模型 具有 重要 价值 。 

“食品 名 称 ” 和 “具体 因素 ”的 边界 范围 限定 在 以 
“1 ? "结尾 的 子 句 范围 内 , “食品 名称"” 和 “具体 因素 ” 
的 左边 界 绝对 不 会 跨越 其 第 一 个 标记 即 “食品 名 称 ” 和 
“具体 因素 ”的 起 始 标记 , 因此 考察 范围 限定 在 从 句子 
开始 到 第 一 个 标记 结束 的 范围 内 ， 称 为 8。 同样 “食品 
名 称 ” 和 “具体 因素 ”的 右边 界 特征 词 绝对 不 会 跨越 “ 食 
品名 称 ” 和 “具体 因素 ”的 最 后 一 个 标记 ,因此 考察 范围 
限定 在 从 最 后 一 个 标记 开始 到 句子 结束 这 样 一 个 范围 
内 ， 这 个 范围 记 做 c。 有 具体 选取 “食品 名 称 ” 和 “具体 因 
素 " 左 边界 词 的 计算 公式 如 公式 (D03 所 示 。 

Re f(W left_outside) 0) 
Jf(W lefi) 

其 中 ，f(QW_left_outside) 表示 丈 在 8 范围 内 出 
现 的 频次 ，f (WV_left) 表示 丈 在 8、“ 食 品名 称 ”、“ 具 
体 因 素 ” 内 部 出 现 的 频次 。 通 过 公式 (1)， 结合 食品 安全 
事件 的 语 料 , 给 定 P 的 经 验 阔 值 为 0.8, 即 当 P=0.8 
时 ,W 可 能 成 为 “食品 名 称 ” 和 “具体 因素 ”的 左边 界 词 ， 
然后 结合 人 工 语言 学 知识 的 内 省 , 最 终 确定 7 个 左边 
界 词 : “的 、 用 、 和 和、 是、 食品、 超标、 中 ”。 

同 理 , 使 用 公式 (2)" "用 于 “食品 名 称 ” 和 “具体 因 
素 ” 右 边界 词 的 选取 。 


P(w) = OU) 0) 
f(W right) 
其 中 ，f(W_right_outside) 表示 WV 在 a 范围 内 出 
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之 后 获得 的 相应 特征 郴 数 的 权重 。 最 大 精 模型 (ME) 是 
以 McCallum 等 号 提出 的 最 大 们 原理 为 基础 ， 即 最 大 
烂 的 原理 主要 是 如 果 概 率 分 布 信息 不 确定 ， 那么 最 不 


现 的 频次 ，f(W_right) 表示 下 在 a、“ 食 品名 称 "、“ 具 
体 因素 ”内 部 出 现 的 频次 , 将 右边 界 词 己 的 阔 值 也 设 
定 为 0.8, 根据 语言 学 知识 的 内 省 再 结合 大 于 或 等 于 
0.8 的 己 值 ， 最 终 确定 10 个 右边 界 词 : “的 、 用 、 品 、 
有 、 种 、 和 、 是 、 超 、 中 、 产 ”。 


3 ”模型 简介 和 特征 确定 


3.1 机 器 学 习 模型 

条 件 随机 场 是 由 Lafferty 等 ”提出 的 用 于 解决 序 
列 标注 问题 较 优 的 一 种 模型 ， 是 在 给 定 一 组 需要 标记 
的 观察 序列 的 条 件 下 ,计算 整个 观察 序列 状态 标记 的 
联合 条 件 概率 分 布 的 无 向 图 模型 。 对 于 指定 的 节点 输 
入 值 , 能 计算 指定 节点 输出 值 的 条 件 概 率 , 其 训练 目 
标 是 使 得 条 件 概 率 最 大 化 。 最 常用 的 CRFs 模型 是 一 
阶 链 式 结构 ， 即 线性 链 结构 ， 其 拓扑 结构 如 图 2 所 示 。 


图 2 线性 链 CRFs 模型 的 拓扑 结构 


设 x={x1 xz，…, xn Xo} 表示 被 观察 的 输入 数据 序 
列 ， 如 本 文 语 料 中 分 词 后 的 词 ; 大 TD pz， Jp yn} 
表示 有 限 状态 集合 ,其 中 每 个 状态 对 应 于 一 个 标记 。 
在 给 定 输入 序列 x 的 条 件 下 ， 对 于 参数 和 = 人 Nl， 和,，…， 
hl 和} 的 线性 链 CRFs 的 状态 序列 y 的 条 件 概 率 如 公 
式 (3) 和 公式 (4) 所 示 11。 


1 n 
p(y | X,1) 一 pO MD 和 万 OP 训 (3) 


Zexp(C2 2 bf) (4) 

其 中 ，Z, 为 归 一 化 因子 , 表示 所 有 可 能 的 状态 序 
列 的 得 分 , 确保 所 有 可 能 状态 序列 的 条 件 概率 之 和 为 
1。 广 OrzD 是 一 个 统一 形式 的 特征 函数 ,通常 
为 二 值 表征 函数 ; X 是 通过 模型 对 训练 数据 进行 训练 


会 产生 偏 置 的 做 法 , 就 是 均等 看 待 概率 分 布 , 不 要 做 
任何 主观 假设 , 在 给 定 关于 训练 数据 的 限制 条 件 下 ， 
使 模型 的 炉 达 到 最 大 的 分 布 , 就 是 所 求 分 布 。 最 大 灶 
模型 在 人 工 智能 和 自然 语言 处 理 等 领域 也 得 到 广泛 应 
用 , 但 由 于 最 大 炉 模 型 本 身 存在 标注 偏 置 的 问题 , 错 
误 识 别 和 未 识别 的 情况 较 多 ,导致 在 某 些 情 况 下 其 效 
果 不 如 CRF 等 模型 。 

3.2 语 料 的 选择 和 语 料 的 处 理 

具体 的 “食品 名 称 ” 和 “具体 因素 ”的 实体 在 语 料 中 
被 标注 成 “【 】” 的 形式 ， 如 : 

“[【 /wky 牛奶 /n 】/wky, /wd 30/m 余 /m 位 /q 执法 /vn 人 
员 /n 来 到 /Vv 西 /b 长 街 /n 农贸 市 场 /n”, 核 实 /V【/wky 反 式 /b 
脂肪 酸 /n 】/wky 的 /0/ 问 题 /ln。/wd 

基于 对 “食品 名 称 ” 和 “具体 因素 ”的 特征 统计 , 在 
条 件 随 机 场 模型 定义 基础 上 , 本 文 在 确定 用 于 “食品 
名 称 ” 和 “具体 因素 ”的 CRF 标记 数 的 过 程 中 ， 主 要 参 
考 公式 (5)n4。 


1 天 
L= pr (5) 

其 中 , 工 表示 当 i<k 时 “食品 名 称 * 和 “具体 因素 ”时 
平均 加 权 后 的 长 度 , N; 表 示 所 选取 的 语 料 中 长 度 为 i 的 
“食品 名 称 ” 和 “具体 因素 ”出 现 的 次 数 , 和 /分别 表示 
语料库 中 最 长 与 最 短 “ 食 品名 称 ” 和 “具体 因素 ”的 长 度 ， 
N 表示 语料库 中 “食品 名 称 ” 和 “具体 因素 ”的 总 个 数 。 
基于 公式 (5), 结合 语 料 的 基本 情况 以 及 相应 的 实验 结 
果 ,“ 食 品名 称 ” 和 “具体 因素 ”识别 模型 构建 中 确定 使 
用 5 词 位 的 标注 集 , 标注 集 用 了 来 表示 ,具体 为 R={B， 
C, E, S, A}, B 表示 “食品 名 称 ” 和 “具体 因素 ”的 初始 词 ， 
C 为 “食品 名 称 * 和 “具体 因素 ”的 中 间 词 , E 为 “食品 名 
称 * 和 “具体 因素 ”的 结束 词 , S 为 “食品 名 称 ” 和 “具体 因 
素 ” 之 外 的 词汇 ,A 为 一 个 词 或 字 单 独 为 “食品 名 称 ” 和 
“具体 因素 ”的 情况 ,， 如果“ 食品 名 称 ” 和 “具体 因素 ”的 
长 度 超过 3， 就 用 C 表示 扩展 词 。 

本 文通 过 编写 Java 程序 , 结合 语 料 中 “食品 名 称 ” 
和 “具体 因素 ”的 <【 】” 标 记 以 及 根据 选取 的 特征 及 制 
定 的 特征 模板 ,自动 对 所 有 语 料 进行 标注 ， 具体 标注 
样 例如 表 3 所 示 。 
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表 3 “食品 名 称 " 和 “具体 因素 ”训练 语 料 和 测试 语 料 。 。” 练 和 测试 耗 时 的 对 比 。 
标注 样 例 表 4 ”基于 条 件 随机 场 模型 “食品 名 称 " 和 “具体 因素 ” 


词语 “词性 词 长 度 “人 启 ” 太 六 各。 是 否 右边 办 标记 取 性 能 比较 
有 关 RY RN a 测试 编号 准确 率 召回 率 F 值 
ER 是 1 89.95% 90.17% 90.06% 
脂肪 酸 n 3 由 a 2 90.46% 91.01% 90.73% 
问题 a 1 | 时 8 3 91.89% 90.68% 91.28% 
. wi 林 和 二 N 并 4 88.35% 91.88% 90.08% 
浙江 省 ns 3 入 S 5 90.37% 91.06% 90.71% 
父 华 市 ns 3 N N N S 6 91.01% 90.07% 90.54% 
公安 局 nm 3 N N N S 7 91.43% 91.74% 91.58% 
江南 ns 2 N N N S 8 90.48% 91.01% 90.74% 
分 局 n 9 N N N S 9 92.12% 91.77% 91.94% 
人 接 到 Vv 9 N N N S 10 90.54% 91.65% 91.09% 
2 群众 n > N N N S 均值 90.66% 91.10% 90.88% 
举报 vn 2 N N N S 
称 部 1 N N N S 表 5 基于 最 大 炉 模 型 "食品 名 称 ” 和 “具体 因素 ” 
取 性 能 比较 
3.3 ”特征 的 选取 以 及 特征 模板 的 制定 测试 编导 ee 召回 率 让 从 
对 于 基于 条 件 随 机 场 的 机 器 学 习 模 型 中 ,特征 的 7 BO i 
选择 都 极其 重要 。 特 征 选 择 的 好 坏 将 会 直接 影响 到 2 73.72% 61.89% 67.29% 
CRFs 模型 的 性 能 ,特征 由 原子 特征 和 复合 特征 两 部 分 3 81.90% 65.19% 72.60% 
构成 。 本 文选 取 的 原子 特征 为 词语 本 身 、 词 性 、 词 长 4 84.10% 59.97% 70.01% 
度 、 是 否 实体 词 、 是 否 左 边界 、 是 否 右 边界 等 6 个 特 5 81.67% 62.49% 70.80% 
征 ; 复合 特征 是 通过 对 原子 特征 的 组 合 来 表征 “食品 S000 635700 Bb 
名 称 ” 和 “具体 因素 ”实体 复杂 的 语言 学 特征 。6 个 特征 . S10040 O31 4 
选择 的 特征 窗口 大 小 分 别 为 7,3,5,5,5,5, 7 个 窗口 的 范 。 oc 
围 是 {3, 2,1,0,1.2.3},5 个 窗口 的 范围 是 (210 9 74.72% 63.37% 68.58% 
PB aid J ” 10 80.88% 65.40% 72.32% 
1,2}, 3 个 窗口 的 范围 是 {-1,0,1} ,在 上 述 特征 中 ， 从 对 均值 re 0 
食品 名 称 ” 和 “具体 因素 ”抽取 性 能 提升 的 角度 考虑 ， 词 


性 和 词语 本 身 是 最 重要 的 特征 , 其 次 是 左右 边界 词 和 表 6 条 件 随 机 场 和 最 大 炉 模 型 训练 和 测试 耗 时 比较 


实体 词 , 最 后 是 “食品 名 称 ” 和 “具体 因素 ”的 长 度 。 条 件 随机 场 模型 最 大 信 模 型 
编号 ”训练 耗 时 ”测试 耗 时 ”训练 耗 时 ”测试 耗 时 
4 实体 抽取 实验 ( 秒 ) (毫秒 ) ( 秒 ) (毫秒 ) 

1 43 837.09 810 78.01 4 
对 抽取 模型 性 能 的 评价 主要 采用 三 个 指标 来 衡 2 41 660.11 1 045 67.01 5 
量 : 准确 率 (Precision)、 召 回 率 (Recall)、F 值 3 43 267.72 980 89.06 78 
(F-measure)。 分 别 基于 上 文 标注 的 语 料 使 用 条 件 随机 。 上 es 0 Ss 
场 模型 和 最 大 焕 模型 进行 “食品 名 称 " 和 “具体 因素 ”的 Ee ee 1 6 3 
抽取 。 在 具体 的 实验 中 使 用 交叉 验证 的 方法 测试 所 构 7 45 677.87 678 57.49 67 
建 模型 的 性 能 , 将 2 800 个 语 料 文档 分 别 按照 9:1 的 比 8 48 814.89 410 67 56 
例 分 为 训练 语 料 和 测试 语 料 , 测试 结果 如 表 4 和 表 5 ai 所 
所 示 , 表 6 展示 了 两 种 模型 在 同样 的 软 硬 件 条 件 下 训 区 值 “机 SD 0 oe | 
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从 表 4 和 表 5 可 以 看 出 , 基于 条 件 随机 场 的 “食品 
名 称 ” 和 “具体 因素 ”识别 模型 性 能 要 优 于 基于 最 大 箭 
模型 的 性 能 。 条 件 随 机 场 模型 的 F 值 最 低 为 90.06%， 
最 高 达到 91.94%, 平均 为 90.88%; 最 大 炉 模 型 的 F 值 
最 高 仅 为 73.38%, 平均 仅 为 70.48%。 

从 表 6 可 以 看 出 , 在 训练 和 测试 的 耗 时 来 看 ,最 
大 炳 模型 要 优 于 条 件 随 机 场 模型 。 前 者 一 次 训练 与 测 
试 耗 时 在 100 秒 左右 , 而 后 者 需要 约 50 000 秒 左 右 。 

由 于 后 续 研究 更 注重 “食品 名 称 ” 和 “具体 因素 ” 识 
别 的 性 能 而 非 训 练 耗 时 的 长 短 ， 因此 本 文选 择 条 件 随 
机 场 模型 进行 “食品 名 称 ” 和 “具体 因素 ”的 识别 。 对 条 
件 随机 场 模型 所 识别 出 来 的 “食品 名 称 ” 和 “具体 因素 ” 
进行 简单 分 析 , 发 现 识 别 错误 较 多 的 “食品 名 称 ” 和 “ 具 
体 因素 ”主要 是 长 度 过 程 ， 比 如 “食品 名 称 ” 和 “具体 因 
素 ”， 比如“ 副 溶血 弧 菌 细菌 *"、“ 乔 家 栅 高 庄 馒 涉 ”"、“ 兽 
用 加 硒 腐 殖 酸 钠 "、“ 受 蜡 样 芽 移 杆菌 污染 *"、“ 汪 氏 蜂 
胶 软 胶 赛 ”这 些 实体 中 要 么 含有 难以 识别 的 多 重地 名 
We 比如 “ 乔 家 ”“ 栅 高 ”， 要 么 姓名 与 名 词组 

， 比 如 * 汪 氏 ”“ 蜂 胶 ”。 这 些 实体 中 的 复杂 构成 成 
分 影响 了 对 食品 安全 事件 香料 中 实体 识别 的 准确 率 
和 召回 率 。 

在 知 网 平台 上 对 2005 年 所 报道 的 任意 食品 安 
全 事件 新 闻 进 行 自动 抓 取 并 完成 对 文本 的 清洗 。 本 
文 开 发 相应 的 软件 , 调用 已 经 构建 的 食品 安全 事件 
实体 抽取 模型 ， 完成 对 新 闻 报道 中 有 关 食 品 安全 名 
称 和 具体 因素 的 实体 抽取 。 知 网 数据 候 取 功能 截图 
如 图 3 所 示 。 
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图 3 知 网 数据 爬 取 功能 截图 
实体 抽取 功能 截图 如 图 4 所 示 。 
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待 抽取 文件 5iwang/2005 中 国 食品 安全 年 会 在 北京 隆重 开幕 _. txt 。 [ 设 览 


抽取 时 间 序列 生成 


， 速冻 面 食品 ， 宣 钱 ， 月 饼 ， 啤 酒 ， 乳 粉 ， 菌 落 总 数 ， 菌 落 总 数 ， 月 饼 ， 微 生 
|， 苏 丹 红 1 号 ， 苏 丹 红 1 号 ， 奶 粉 ， 和 白酒， 奶粉 ， 苏 丹 红 ， 农药， 农药， 速冻 面 区 
和 ， 乳 粉 ， 菌落 总 数 ， 菌 沙 总 数 ， 月 饼 ， 微生物， 添加剂， 苏丹 红 1 号 ， 


对 间 实 体 词 : 

2 条 生日， 2004 年 ， 目 前 ， 现 阶段 ， 目 前 ， 去 年 ， 今 天 ， ， 两 年 ， 

前 不 久 ， 今 天 ，2003 年 ，2004 年 ，2005 年 上 半年 ， 2005 年 匀 ， 上 半 村 ET 
前 ， 


2005: 
2001 年 ， 今 年 7 月 1 日 ，1 月 日， 今年， 今年 10 月 1 日 ， ， 今年 5 月 份 , 
午 ，3 年 来 ， 今 年 ， 目 前 ， 今 年 ， 目 前 ，2001 年 ， 今 年 ?月 1 日 ，1 月 1 日 ， 今 年 ， 今 年 10 月 1 
日, 后 2005 年 2 月 ， 今 年 5 月 份 ，2005 年 ，2004 年 9 月 ， 今 年 ， 今 天 ， 近 年 来 ， 近 期 ， 今 
年 10 月 1 日 ， 今 年 ， 目 前 ，2003 年 9 月 20 日 ，2004 年 9 月 18 日 


图 4 实体 抽取 功能 截图 


本 文 所 界定 的 “食品 名 称 ” 和 “具体 因素 ”实体 的 自 
动 标注 对 于 构建 食品 安全 事件 知识 库 和 挖掘 食品 安全 
应 对 策略 起 到 了 充当 基础 资源 的 作用 。 在 已 标注 “食品 
名 称 ” 和 “具体 因素 ”实体 的 语 料 基础 上 , 通过 统计 实体 
的 内 外 特征 , 构建 了 实体 抽取 的 机 器 学 习 模型 。 从 开 
放 测试 的 结果 观察 , 本文 所 构建 的 实体 抽取 模型 整体 
性 能 较为 突出 , 基本 达到 了 实用 的 目标 。 在 后 续 的 研 
究 中 , 一 方面 要 在 1995 年 -2004 年 的 时 间 跨 度 的 语 料 
上 使 用 该 模型 进行 具 应 用 推广 , 另 一 方面 结合 模 
型 的 整体 性 能 表现 , 通过 融合 新 的 特征 改进 已 有 模型 
的 性 能 。 
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Abstract: [Objective] This paper aims to extract the events of food safety emergencies from large food safety 
emergencies. [Methods] First, we built the food safety emergency corpus based on the past events, as well as the data 
acquisition, labeling, and organization methods of information science. Then, we extracted the corresponding events 
with the help of conditional random field model, and the distribution characteristics knowledge of the food safety 
emergencies. [Limitations] We might not be able to apply the feature template created by this research to other fields. 
[Results] We examined the proposed model with a food safety emergency corpus of 15 million Chinese words, and the 
F value of this model reached 91.94%. [Conclusions] It is feasible for us to extract the events from food safety 
emergency corpus with the help of conditional random field model. 


Keywords: Characteristics Knowledge Conditional Random Fields Event Food Safety Emergency 


OCLC 发 布 研究 报告 探讨 研究 数据 管理 的 现实 状况 


2017 年 3 月 ,OCLC 发 布 一 项 新 的 研究 报告 ， 题 为 “研究 数据 管理 (Research Data Management, RDM) 服 务 空间 之 旅 ” 概述 
了 RDM 服务 空间 的 情况 , 为 世界 4 所 大 学 进一步 探索 RDM 黄 定 了 基础 。 

该 报告 是 “研究 数据 管理 现实 ”系列 报告 中 的 第 一 部 分 , 这 一 系列 报告 重点 分 析 了 4 个 机 构 的 决策 情况 , 这 4 个 机 构 在 面 
对 研究 型 大 学 RDM 服务 规划 、 开 发 和 部 署 时 做 出 不 同 的 选择 。 

该 报告 首先 对 爱丁堡 大 学 (英国 )、 伊 利 诺 伊 大 学 香槟 分 校 (美国 )、 莹 纳 士 大 学 (澳大利亚 ) 和 瓦 南宁 根 大 学 (荷兰 ) 等 4 所 大 
学 进行 案例 分 析 , 研究 这 些 机 构 的 RDM 能 力 。 

报告 撰写 人 解释 说 :“ 研 究 数据 管理 已 经 成 为 高 等 教育 中 十 分 重要 的 一 个 领域 , 需要 对 服务 、 资 源 和 基础 设施 进行 大 量 投 
资 ， 以 支持 研究 人 员 的 数据 管理 需求 。 该 报告 是 OCLC Research 的 一 系列 报告 中 的 第 一 篇 , 研究 了 高 等 教育 机 构 在 构建 或 获 
取 RDM 能 力 方 面 所 面临 的 背景 、 影 响 和 选择 , 也 即 , 在 支持 新 兴 数 据 管理 实践 所 需 的 基础 设施 、 服 务 和 其 他 资源 时 所 面 
的 背景 、 影 响 和 选择 。” 

除 4 项 深入 案例 研究 外 ,报告 还 在 各 种 国家 环境 中 ,对 北美 、 欧 洲 和 澳大利亚 的 十 几 个 研究 型 大 学 进行 了 RDM 服务 外 
查 , 发 现 RDM 服务 可 以 分 为 三 类 : 

(1) 教育 类 : 则 在 教育 研究 人 员 和 其 他 利益 侯 关 方 负责 任 地 管理 其 数据 以 及 安排 长 期 保存 的 重要 性 , 甚至 是 必要 性 ; 

(2) 专业 类 : 这 些 服务 为 遇 到 具体 研究 数据 管理 问题 的 研究 人 员 提 供 决策 支持 和 定制 解决 方案 ; 

(3) 保存 类 : 提供 支持 整个 研究 周期 的 数据 管理 的 相关 技术 基础 设施 和 相关 服务 。 

“研究 数据 管理 服务 空间 之 旅 "探索 了 这 三 个 类 别 ,为 整个 系列 报告 提供 了 一 个 框架 并 对 该 系列 中 的 下 一 个 报告 进行 了 
预告 。 从 OCLC 研究 网 站 可 下 载 该 报告 。 

(编译 自 : http://www.oclc.org/en/news/releases/2017/201708dublin.html) 
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